红葡萄酒质量数据探索分析

这份报告探索分析的是一份红葡萄酒质量数据集,该数据集包含 1599 条红酒数据,包括 11 个关于红酒的化学成分的变量和质量评分,其中质量评分由⾄少 3 名葡萄酒专家得出,分数在 0(⾮常差)和 10(⾮常好)之间。

单变量绘图选择

## [1] 1599   12
## 'data.frame':    1599 obs. of  12 variables:
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : int  5 5 5 6 5 5 5 7 7 5 ...
##  fixed.acidity   volatile.acidity  citric.acid    residual.sugar  
##  Min.   : 4.60   Min.   :0.1200   Min.   :0.000   Min.   : 0.900  
##  1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090   1st Qu.: 1.900  
##  Median : 7.90   Median :0.5200   Median :0.260   Median : 2.200  
##  Mean   : 8.32   Mean   :0.5278   Mean   :0.271   Mean   : 2.539  
##  3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420   3rd Qu.: 2.600  
##  Max.   :15.90   Max.   :1.5800   Max.   :1.000   Max.   :15.500  
##    chlorides       free.sulfur.dioxide total.sulfur.dioxide    density      
##  Min.   :0.01200   Min.   : 1.00       Min.   :  6.00       Min.   :0.9901  
##  1st Qu.:0.07000   1st Qu.: 7.00       1st Qu.: 22.00       1st Qu.:0.9956  
##  Median :0.07900   Median :14.00       Median : 38.00       Median :0.9968  
##  Mean   :0.08747   Mean   :15.87       Mean   : 46.47       Mean   :0.9967  
##  3rd Qu.:0.09000   3rd Qu.:21.00       3rd Qu.: 62.00       3rd Qu.:0.9978  
##  Max.   :0.61100   Max.   :72.00       Max.   :289.00       Max.   :1.0037  
##        pH          sulphates         alcohol         quality     
##  Min.   :2.740   Min.   :0.3300   Min.   : 8.40   Min.   :3.000  
##  1st Qu.:3.210   1st Qu.:0.5500   1st Qu.: 9.50   1st Qu.:5.000  
##  Median :3.310   Median :0.6200   Median :10.20   Median :6.000  
##  Mean   :3.311   Mean   :0.6581   Mean   :10.42   Mean   :5.636  
##  3rd Qu.:3.400   3rd Qu.:0.7300   3rd Qu.:11.10   3rd Qu.:6.000  
##  Max.   :4.010   Max.   :2.0000   Max.   :14.90   Max.   :8.000

查看数据集中有多少空值:

## [1] 0

该数据集有 12 个变量,1599 行数据,并且无空值。

## [1] 0.8248906

由质量评分的条形图可以看出:质量评分为 5 的最多,评分为 6 次之,占总数据的 82.5%。 评分大于 6 的红酒算是质量上乘,评分小于 5 的红酒质量算比较差了。

那么,红酒的质量评分到底与哪些化学成分有关呢?

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    4.60    7.10    7.90    8.32    9.20   15.90

上图是固定酸度分布的直方图,酸度值在 7 附近达到峰值,主要分布在 6.0 - 11.0 之间,整体上呈现右偏分布。
已知信息:葡萄酒中的固定酸不易挥发。

##     fixed.acidity quality
## 46            4.6       4
## 96            4.7       6
## 822           4.9       7

固定酸度的最小值 4.6 对应的质量评分为 4,猜测固定酸度与质量评分可能有关?

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1200  0.3900  0.5200  0.5278  0.6400  1.5800

上图是挥发性酸度的直方图,酸度值主要集中在 0.2 - 1.0 之间,特别要注意的是:在 0.1 附近以及 1.1 以上出现了一些异常值。
已知信息:挥发性酸含量太高会导致令人不快的醋味。
由此猜想:挥发性酸度值较高的那些异常值可能会导致红酒质量评分较低?

##   volatile.acidity quality
## 1            1.580       3
## 2            1.330       5
## 3            1.330       5
## 4            1.240       5
## 5            1.185       3
## 6            1.180       5
## 7            1.130       4
## 8            1.115       4

挥发性酸度值为 1.58 的葡萄酒的评分为 3,大概是由于令人不快的醋味导致了较低的评分,猜测挥发性酸度可能对质量评分有影响。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.090   0.260   0.271   0.420   1.000

上图是柠檬酸含量的直方图,柠檬酸含量在 0 附近达到峰值,在 0.5 处也有一个显著的峰值,在 1 附近有异常值。
已知信息:柠檬酸含量很少,可为葡萄酒增添新鲜度和风味。
由此猜想:过多的柠檬酸含量或者不含柠檬酸会导致葡萄酒质量评分低?

##     citric.acid quality
## 152           1       4
##   citric.acid quality
## 1           0       5
## 2           0       5
## 5           0       5
## 6           0       5
## 8           0       7

柠檬酸含量为 1 的葡萄酒数据的质量评分为 4,确实导致葡萄酒质量变差,但是不含柠檬酸对红酒质量评分没有显著影响。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.900   1.900   2.200   2.539   2.600  15.500

以上左图为残留糖分布的直方图,右图为对其经过对数处理的直方图。
由于残留糖存在大量的长尾数据,所以对其横坐标使用对数处理。
已知信息:残留糖是指发酵停止后残留的糖量,很少发现少于1克/升的葡萄酒,而超过45克/升的葡萄酒被认为是甜的。
以上右图中观察到在小于 1 克/升处有异常值,猜想:该葡萄酒质量评分一定很高?

##      residual.sugar quality
## 1018            0.9       6
## 1019            0.9       6

残留糖含量为 0.9,质量评分为 6,只能算是中等品质的葡萄酒,并没有品质很好。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01200 0.07000 0.07900 0.08747 0.09000 0.61100

以上左图为氯化物含量分布的直方图,右图为对其经过对数处理的直方图。
由于氯化物含量存在大量的长尾数据,所以对其使用对数处理。
氯化物含量的分布经过对数处理之后,比较接近正态分布,在 0.01 附近处有异常值。
猜想:此异常值的葡萄酒数据质量评分如何?

##     chlorides quality
## 837     0.012       7
## 838     0.012       7

该葡萄酒的质量评分为 7,可以猜想:是否氯化物含量越低,质量越好?

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    7.00   14.00   15.87   21.00   72.00

上图为游离二氧化硫含量分布的直方图,明显呈现右态分布,游离二氧化硫含量分布的峰值出现在 5 附近,主要集中在 2.5 - 40,含量在 40 以上分布极少了。
已知信息:游离二氧化硫可以防止微生物的生长和葡萄酒的氧化。

##     free.sulfur.dioxide quality
## 531                   1       6
## 536                   1       6
## 774                   1       6
## 775                   2       6
##      free.sulfur.dioxide quality
## 397                   68       5
## 401                   68       5
## 1245                  72       6
## 1559                  66       5

由上述表格所示:特别少或含量在 65 以上的游离二氧化硫对红酒的质量评分未表现出显著影响。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.00   22.00   38.00   46.47   62.00  289.00

以上是总二氧化硫含量分布的直方图,主要集中在 10 - 120 之间,峰值出现在20 附近。
已知信息:在低浓度下,葡萄酒中几乎检测不到二氧化硫,但是当游离二氧化硫浓度超过50 ppm时,二氧化硫在葡萄酒的香气和味道中变得明显。
由此猜想,游离二氧化硫浓度超过 50ppm 会显著影响葡萄酒的质量?

##      free.sulfur.dioxide total.sulfur.dioxide quality
## 15                    52                145.0       5
## 16                    51                148.0       5
## 397                   68                124.0       5
## 401                   68                124.0       5
## 585                   54                 80.0       7
## 926                   53                 77.0       7
## 927                   52                 73.0       6
## 983                   51                 70.0       6
## 1132                  57                135.0       5
## 1245                  72                160.0       6
## 1296                  51                 77.5       5
## 1297                  51                 77.5       5
## 1359                  52                 98.0       5
## 1435                  55                 95.0       6
## 1436                  55                 95.0       6
## 1559                  66                115.0       5

上述表格中是 游离二氧化硫浓度超过 50ppm 的数据,但暂未看出对红酒质量评分的影响。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9901  0.9956  0.9968  0.9967  0.9978  1.0037

上图为葡萄酒密度分布的直方图,接近正态分布。
已知信息:葡萄酒的密度取决于酒精和糖的百分比,上图接近正态分布,密度值主要集中在 0.995 - 1 之间。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.740   3.210   3.310   3.311   3.400   4.010

上图为葡萄酒pH值分布的直方图,葡萄酒呈酸性,pH 值主要集中在 3.0 - 3.6 之间。

##       pH quality
## 152 2.74       4

pH 为 2.74 的葡萄酒质量评分为 4,可能是太酸导致的评分过低。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3300  0.5500  0.6200  0.6581  0.7300  2.0000

上图为硫化盐含量分布的直方图,分布值主要集中在 0.5 - 1 之间。 已知信息:硫化盐作为一种葡萄酒添加剂,可提高二氧化硫气体(SO2)的含量,可作为抗微生物剂和抗氧化剂。

##     sulphates quality
## 87       1.95       6
## 92       1.95       6
## 93       1.98       5
## 152      2.00       4

硫化盐含量高于 1.8 的红酒质量评分未表现出明显规律,只有含量为 2.00 的红酒质量评分为 4,表现出了对红酒质量的一定影响。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.40    9.50   10.20   10.42   11.10   14.90

上图为酒精浓度分布的直方图,酒精浓度主要集中在 9 - 13 之间,在 9.5 附近达到峰值。

##     alcohol quality
## 518     8.4       3
## 545     8.4       6

同一酒精度数,质量评分却不一样,所以暂未看出酒精度数对红酒质量的影响。

单变量分析

你的数据集结构是什么?

  • 11 个化学成分的变量为连续变量。
  • quality (质量评分)是有序分类变量。

你的数据集内感兴趣的主要特性有哪些?

针对该数据集,主要感兴趣的是红酒的质量与什么化学成分有关?

主要特性是:volatile.acidity(挥发性酸度)、citric.acid(柠檬酸)、residual.sugar(残留糖)、free.sulfur.dioxide(游离二氧化硫)

  • 选择挥发性酸度是因为挥发性酸含量太高会导致令人不快的醋味,影响口感。
  • 选择柠檬酸是因为柠檬酸含量很少,可为葡萄酒增添新鲜度和风味。
  • 选择残留糖是因为超过45克/升的葡萄酒被认为是甜的,影响口感。
  • 选择游离二氧化硫是因为当游离二氧化硫浓度超过50 ppm时,二氧化硫在葡萄酒的香气和味道中变得明显,影响气味。

你认为数据集内哪些其他特征可以帮助你探索兴趣特点?

其它 7 个化学成分也可以帮助探索对红酒质量的影响: fixed.acidity(固定酸度)、chlorides(氯化物)、total.sulfur.dioxide(总二氧化硫)、density(密度)、pH、sulphates(硫酸盐)、alcohol(酒精度数)

根据数据集内已有变量,你是否创建了任何新变量?

没有

在已经探究的特性中,是否存在任何异常分布?你是否对数据进行一些操作,如清洁、调整或改变数据的形式?如果是,你为什么会这样做?

由于residual.sugar(残留糖)、chlorides(氯化物)的直方图含有大量的长尾数据,所以对其做了对数处理。

双变量绘图选择

变量之间的相关系数

##                      fixed.acidity volatile.acidity citric.acid residual.sugar
## fixed.acidity                 1.00            -0.26        0.67           0.11
## volatile.acidity             -0.26             1.00       -0.55           0.00
## citric.acid                   0.67            -0.55        1.00           0.14
## residual.sugar                0.11             0.00        0.14           1.00
## chlorides                     0.09             0.06        0.20           0.06
## free.sulfur.dioxide          -0.15            -0.01       -0.06           0.19
## total.sulfur.dioxide         -0.11             0.08        0.04           0.20
## density                       0.67             0.02        0.36           0.36
## pH                           -0.68             0.23       -0.54          -0.09
## sulphates                     0.18            -0.26        0.31           0.01
## alcohol                      -0.06            -0.20        0.11           0.04
## quality                       0.12            -0.39        0.23           0.01
##                      chlorides free.sulfur.dioxide total.sulfur.dioxide density
## fixed.acidity             0.09               -0.15                -0.11    0.67
## volatile.acidity          0.06               -0.01                 0.08    0.02
## citric.acid               0.20               -0.06                 0.04    0.36
## residual.sugar            0.06                0.19                 0.20    0.36
## chlorides                 1.00                0.01                 0.05    0.20
## free.sulfur.dioxide       0.01                1.00                 0.67   -0.02
## total.sulfur.dioxide      0.05                0.67                 1.00    0.07
## density                   0.20               -0.02                 0.07    1.00
## pH                       -0.27                0.07                -0.07   -0.34
## sulphates                 0.37                0.05                 0.04    0.15
## alcohol                  -0.22               -0.07                -0.21   -0.50
## quality                  -0.13               -0.05                -0.19   -0.17
##                         pH sulphates alcohol quality
## fixed.acidity        -0.68      0.18   -0.06    0.12
## volatile.acidity      0.23     -0.26   -0.20   -0.39
## citric.acid          -0.54      0.31    0.11    0.23
## residual.sugar       -0.09      0.01    0.04    0.01
## chlorides            -0.27      0.37   -0.22   -0.13
## free.sulfur.dioxide   0.07      0.05   -0.07   -0.05
## total.sulfur.dioxide -0.07      0.04   -0.21   -0.19
## density              -0.34      0.15   -0.50   -0.17
## pH                    1.00     -0.20    0.21   -0.06
## sulphates            -0.20      1.00    0.09    0.25
## alcohol               0.21      0.09    1.00    0.48
## quality              -0.06      0.25    0.48    1.00

与 quality(质量评分)相关系数绝对值大于 0.2 的都可以考虑研究。

按照相关系数绝对值从大到小排列:

再加上上一小节选择的感兴趣的主要特性:residual.sugar(残留糖)、free.sulfur.dioxide(游离二氧化硫),总共研究 6 个特性。

此外还观察到:

从质量评分 6,7,8 对应的酒精度数的中位数来看,红酒质量越好,酒精度数越高。
可以推测:
对于中等以及中等偏上的红酒,度数越高,红酒质量越好的可能性越大。
但对于中等偏下的红酒来说,酒精度数与红酒质量关系不大。

如果只考虑质量评分大于 4 的红酒数据,得出的相关系数可能更高。

## 
##  Pearson's product-moment correlation
## 
## data:  alcohol and quality
## t = 23.962, df = 1534, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4845165 0.5573539
## sample estimates:
##       cor 
## 0.5218858

相关系数确实从 0.48 上升至 0.52。

随着红酒质量评分由低到高,挥发性酸度逐渐下降,与已知信息挥发性酸含量太高会导致令人不快的醋味相符合。
由此可推断:挥发性酸度值越低,红酒质量越好的可能性越大。

随着红酒质量评分由低到高,硫酸盐中位数呈现不断上升的趋势,但是硫化盐含量超过 1.4 就不再有质量评分 7,8 的红酒了。
可以推测,在硫化盐含量小于 1.4 的情况下,硫化盐含量越高,红酒质量越好的可能性越大,但硫化盐含量超过了 1.4,虽不至于导致红酒质量变的很差,但红酒质量也就中等水平了。

随着红酒质量评分由低到高,柠檬酸含量呈现不断上升的趋势,但是在红酒质量评分为 7 处有较多接近 0 的异常值。

temp <- subset(redwine_quality, quality == 7 & citric.acid < 0.1)
temp$citric.acid
##  [1] 0.00 0.02 0.08 0.04 0.09 0.09 0.01 0.02 0.03 0.03 0.01 0.00 0.00 0.02 0.06
## [16] 0.06 0.00 0.00 0.01 0.01 0.00 0.01 0.08 0.07 0.00 0.00 0.02 0.09

这些异常值有待研究,可能是数据错误,也可能是由于某些未知的原因。
如果不考虑这些异常值,可以推断出,柠檬酸含量越高,红酒质量越好的可能性越大,但有上限(图中大概为 0.8)。

去掉上述异常值之后重新计算的相关系数:

with(subset(redwine_quality, !(quality == 7 & citric.acid < 0.1)), cor.test(citric.acid, quality))
## 
##  Pearson's product-moment correlation
## 
## data:  citric.acid and quality
## t = 11.302, df = 1569, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.2280138 0.3194967
## sample estimates:
##       cor 
## 0.2743759

相关系数从 0.23 提升到 0.27,超过了硫酸盐与质量的相关系数 0.25。

与相关系数 0.01 一致,残留糖与红酒质量没有表现出相关性,但是发现一个有趣的也符合现实的现象:
残留糖含量高于 10 之后,质量评分都在 7 以下了。
由此可推测,当残留糖含量高于 10,会影响红酒质量,也就是说,高品质的红酒残留糖含量需低于 10。

与相关系数 -0.05 一致,游离二氧化硫与红酒质量没有表现出相关性,但是根据已知信息:游离二氧化硫浓度超过50 ppm时,二氧化硫在葡萄酒的香气和味道中变得明显。

上述图形中,高于 50 以上,只有质量评分 7 处有几个异常值,粗略推断:高品质红酒的游离二氧化硫含量不会高于 60。

双变量分析

探讨你在这部分探究中观察到的一些关系。这些感兴趣的特性与数据集内其他特性有什么区别?

  • 对于中等以及中等偏上的红酒,度数越高,红酒质量越好的可能性越大。
    但对于中等偏下的红酒来说,酒精度数与红酒质量关系不大。
  • 挥发性酸度值越低,红酒质量越好的可能性越大。
  • 在硫化盐含量小于 1.4 的情况下,硫化盐含量越高,红酒质量越好的可能性越大,但硫化盐含量超过了1.4,虽不至于导致红酒质量变的很差,但红酒质量也就中等水平了。
  • 柠檬酸含量越高,红酒质量越好的可能性越大,但有上限(大概为 0.8)。
  • 高品质的红酒残留糖含量需低于 10。
  • 高品质红酒的游离二氧化硫含量不会高于 60。

上述的这些特性对红酒的质量有较大影响,而其它特性对红酒质量的影响较小。

你是否观察到主要特性与其他特性之间的有趣关系?

  • fixed.acidity(固定酸度)与 citric.acid(柠檬酸)相关系数为:0.67,呈现出中等强度的正相关。
    volatile.acidity(挥发性酸度)与 citric.acid(柠檬酸)相关系数为 -0.55,呈现出中等强度的负相关。
    柠檬酸也是一种酸,对酸度值产生影响是合情合理的。

  • fixed.acidity(固定酸度)与 density(密度)相关系数为:0.67,呈现出中等强度的正相关。
    酸度值与密度之间存在中等的相关性是一个有趣的关系,原因暂未可知。

你发现最强的关系是什么?

最强的相关关系是 fixed.acidity(固定酸度)与 pH 值,相关系数为 -0.68,原因是 pH 本就是用来衡量酸碱度的指标,酸度越大,pH 值越小。

多变量绘图选择

由上图看出: 质量高的红酒主要分布在左上方,也就是酒精度数越高、挥发性酸度值越低的红酒品质越好的可能性越大。
大部分质量中等的红酒数据集中在:
挥发性酸度值:0.4 - 0.8,酒精度数:9 - 10 之间。

由上图可看出:
质量高的红酒数据主要在图形的上方,质量差的红酒数据更多分布在图形的下方,并且大部分数据的硫化盐集中在 1.0 以下,大部分柠檬酸值也小于 0.75。

大部分红酒数据集中分布在:
残留糖:1 - 10,游离二氧化硫:0 - 40 之间。

密度与固定酸度、酒精的关系:

密度与固定酸度表现了较明显的正相关,并且质量好的红酒数据主要分布在图形的左上方,表现出了质量与固定酸度有轻微的正相关,与密度有轻微的负相关。

酒精度数与密度呈现出中等强度的负相关,与相关系数 -0.5 相符。

多变量分析

探讨你在这部分探究中观察到的一些关系。通过观察感兴趣的特性,是否存在相互促进的特性?

  • 红酒质量与酒精、挥发性酸度、硫化盐、柠檬酸的关系与上一小节的分析结论相符。
  • 存在相互促进的特性:
  • 固定酸度与密度的较强正相关,以及酒精与密度的中等强度负相关
  • pH 作为衡量酸碱度的指标,也与固定酸度、挥发性酸度、柠檬酸有关。

这些特性之间是否存在有趣或惊人的联系呢?

比较有趣的是固定酸度与密度之间表现出的中等强度的正相关,值得研究。
对于酒精与密度之间呈现出的中等强度的负相关是可以理解的:
因为酒精的密度小于水的密度,酒精含量越多,红酒的总密度就越小。


定稿图与总结

绘图一

## [1] 0.8248906

描述一

82.5% 的红酒质量评分为 5,6,为中等品质,评分大于 6 的为品质好的红酒,评分小于 5 的为品质较差的红酒。

绘图二

描述二

  • 对于质量中等及中等以上品质的红酒,总体趋势:酒精度数越高,红酒质量越好。
  • 从总体趋势来看:挥发性酸度值越低,红酒质量越好。
  • 从总体趋势来看:硫酸盐含量越高,红酒质量越好,上限为 1.4。
  • 从总体趋势来看:柠檬酸含量越高,红酒质量越好,上限为 0.8。

绘图三

描述三

红酒的密度与固定酸度呈正相关:固定酸度值越大,红酒的密度也越大。


反思

分析过程中遇到的难点?

主要难点在于如何选择与质量相关的主要化学特征:

  • 一方面通过已知信息选取可能与质量相关的化学特征;
  • 一方面根据相关系数选择出与质量有关的化学特征;

但是,11 个化学成分的影响错综复杂,很难一个特征表现出明显的影响,更多的可能是多个化学成分综合影响。

分析过程中成功发现的部分?

分析过程中成功的发现酒精度数、挥发性酸度、硫酸盐、柠檬酸与红酒质量表现出较明显的相关性

未来如何进一步丰富分析内容和提高报告质量?

  1. 红酒质量评分为 7,且柠檬酸值小于 0.1 的异常值是数据错误,还是正常数据。如果是数据错误,那么红酒质量与柠檬酸有较弱的正相关,如果是正常数据,那红酒质量与柠檬酸关系不大,值得更进一步考察数据。

  2. 红酒密度与固定酸度的正相关到底是什么原因造成的,值得进一步研究原因。

  3. 酒精度数、硫酸盐与红酒质量的相关性是什么原因造成的,值得进一步研究。

如果解决了上述三个问题,可以进一步丰富报告的内容,也可以让报告更有说服力。